更新时间:2024-05-10 10:45
APU(Accelerated Processing Unit)中文名字叫加速处理器,是AMD“融聚未来”理念的产品,它第一次将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DX11游戏和最新应用的“加速运算”,大幅提升了电脑运行效率。
PS4的APU在性能上十分的强大,拥有1.84T/s浮点的GPU,以及176GB/s速度的8GB GDDR5共享内存,在性能上可以媲美中高端的电脑独显。
APU将通用运算x86架构CPU核心和可编程矢量处理引擎相融合,把CPU擅长的精密标量运算与传统上只有GPU才具备的大规模并行矢量运算结合起来。AMD APU设计综合了CPU和GPU的优势,为软件开发者带来前所未有的灵活性,能够任意采用最适合的方式开发新的应用。AMD APU通过一个高性能总线,在单个硅片上把一个可编程x86 CPU和一个GPU的矢量处理架构连为一体,双方都能直接读取高速内存。AMD APU中还包含其他一些系统成分,比如内存控制器、I/O控制器、专用视频解码器、显示输出和总线接口等。AMD APU的魅力在于它们内含由标量和矢量硬件构成的全部处理能力。
所谓APU其实就是“加速处理器”(Accelerated Processing Unit)的英文缩写,是AMD推出的整合了x86/x64 CPU处理核心和GPU处理核心的新型“融聚”(Fusion)处理器,因此我们也能在网上找到“融聚加速处理器”的说法。AMD的APU平台分两种,一种是此前已经能在市面上买到的E系列入门级APU,一种是2011年才在欧美市场正式上市的A系列主流级APU,A系列APU分A4/A6/A8/A10四大系列,就是我们一般讲的“Llano APU处理器”(拉诺APU处理器)。
因此,A系列的APU平台一般就称为Llano APU平台,当然,也有人针对APU整合的GPU,把Llano APU平台叫做“Lynx平台”(猞猁平台)。
AMD认为,CPU和GPU的融合将分为四步进行:
第一步是物理整合过程(Physical Integration),将CPU和GPU集成在同一块硅芯片上,并利用高带宽的内部总线通讯,集成高性能的内存控制器,借助开放的软件系统促成异构计算。
第二步称为平台优化(Optimized Platforms),CPU和GPU之间互连接口进一步增强,并且统一进行双向电源管理,GPU也支持高级编程语言,这部分才是最关键的。
第三步是架构整合(Architectural Integration),实现统一的CPU/GPU寻址空间、GPU使用可分页系统内存、GPU硬件可调度、CPU/GPU/APU内存协同一致,这已在APU中初步完成。
第四步是架构和系统整合(Architectural & OS Integration),主要特点包括GPU计算环境切换、GPU图形优先计算、独立显卡的PCI-E协同、任务并行运行实时整合等等,这些需要和微软、ADOBE等行业软件巨头不停的沟通交流。
APU正是AMD公司对融合技术多年研究的成果,传统计算中的绝大部分浮点操作都脱离CPU而转入擅长此道的GPU部分,GPU不再只是游戏工具,混合计算将大放光芒。在不远的未来,CPU和GPU的概念也会渐渐模糊起来,正如AMD所宣传的:The Future is Fusion。
Trinity APU已在2012年10月2日正式发布,距Llano APU发布一年又三个月,桌面平台代号为“Virgo”,移动平台为“Comal”,新一代APU采用GlobalFoundries 32nm SOI HKMG工艺制造,拥有2-4个基于改进的推土机架构CPU核心,核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代Llano的CPU部分还是采用的较老的K10架构,融合的GPU部分也进行了大刀阔斧的改进,HD6000核心将被采用VLIW4(Cayman核心的HD6900就是采用的这种架构)架构的新图形核心取代。直接竞争将在四月份推出的Intel Ivy Bridge架构处理器。AMD在处理器性能上继续落后,同时在图形性能上大幅领先。新一代AMD Ryzen APU2/12正式上市。
Trinity APU基于增强版的推土机架构“打桩机”(Piledriver),最多双模块四核心,支持第三代动态加速技术Turbo Core 3.0,同时整合VLIW4架构的Radeon HD 7000系列图形核心。
关于Trinity APU处理器的性能我们可以从AMD展示的移动版平台来一窥端倪。AMD在搭载了Trinity APU的笔记本上运行了DX11新作《杀出重围3:人类革命》,为了方便了解,AMD还拿Intel的Sandy Bridge平台进行了对比(移动版Sandy Bridge均是内置HD Graphics 3000),在开启了开启DX11、形态抗锯齿(MLAA)、纹理过滤、屏幕环境光遮蔽(SSAO)、景深(DOF)、后期处理、曲面细分等特效和技术后,Trinity APU平台运行更为流畅,而Sandy Bridge平台则会时不时出现明显的卡顿现象。 以PCMark Vantage、3DMark Vantage的成绩进行衡量,台式机版本的处理器性能、图形性能相比Llano APU均可提升最多30%,而笔记本版本则是最多25%、50%。 Trinity APU将针对Windows 8操作系统进行专门优化,并引入新的视频处理能力,尤其是视频压缩引擎“VCE”,对手直指Intel QuickSync转码引擎。
至于电池续航能力,AMD内部测试给出的答案是:Windows桌面空闲待机12小时28分钟、播放DVD标清电影7小时15分钟、播放BD蓝光高清电影4小时2分钟、运行3DMark06测试3小时20分钟。
Trinity APU还改进了DDR内存控制器,可以支持到DDR3-2133内存,从Llano APU的测试来看,内存性能的提升直接影响到图形显示部分的性能,从DDR3-1333内存升级为DDR3-1866后游戏性能最高可提升55%。也许是由于修改部分较多,Trinity APU采用了新的FM2封装接口,和FM1接口互不兼容。
这一代的Llano APU由于缺货的原因并未发挥出它应有的能量——Fusion APU于2011年3月1日正式发布,主流的Llano APU于2011年6月1日正式发布,而在9月中下,隶属A系列APU的A8-3850和A6-3650还并未在卖场铺货,起码中关村卖场还未见到货。在Sandy Bridge早早完成铺货并开始大势宣传的情况下,Llano APU还有多少的表现空间还不得而知,也许APU真正的能量在Trinity APU身上才能爆发出来。 加强了整数运算性能的全新推土机架构处理核心和更侧重通用计算的全新VLIW4架构图形核心将使新一代Trinity APU具有更强的诱惑力,AMD首先提出的融聚概念的威力也将在那时候宣泄出来。
APU与融合
不同于推土机,Llano APU并没有使用全新的内核架构,甚至不像Brazos APU平台那样至少处理器部分是新的“山猫”(Bobcat)架构,说白了主要就是K10处理器、DX11显卡(以及北桥芯片)的合体,但显然也不是1+1=2那么简单。Llano APU面临的问题不仅仅是要避免1+1<2,还要争取做到1+1>2。
Llano APU的设计目标主要有这么几条:
- CPU、GPU性能综合:同时提供最好的CPU、GPU性能。
- 独立显卡级别的GPU体验:完整的DX11和功能集;拖拽转码和Aero效果等Windows 7体验。
- 独有双显卡技术:配合AMD Radeon独立显卡提供额外性能。
- 下一代视频加速:也就是UVD3引擎,创新的显示和画质功能,更高带宽。
- 行业和开放标准计算API支持:主要是OpenCL、DirectCompute,同时数据传输延迟更低。
- 3D立体:支持HD3D,包括蓝光3D、DisplayPort 1.1(不及独立显卡的DP 1.2)、HDMI 1.4a。
可以看出,六个目标中有五个半是关于GPU的,涉及CPU的只有半个,Llano APU的关注重点也就不言而喻了,也与AMD VISION这样的平台名字相符。
Llano APU芯片采用GlobalFoundries 32nm HKMG工艺制造,又分为两种版本,其一是完整版本,集成14.5亿个晶体管,核心面积228平方毫米,又称为Big Llano或者Llano 1;其二是精简版本,集成7.58亿个晶体管,核心面积暂时不详,又称为Small Llano或者Llano 2。二者都采用了新的micro PGA封装接口Socket FS1,772针无顶盖,引脚间距1.2192毫米,芯片尺寸35×35=1225平方毫米。
从各方面看,首批发布的Llano APU都是采用了第一个完整版本,双核版本也是由四核屏蔽而来的,因此热设计功耗同样较高。不知道何时才能看到原生的双核版本,但是AMD透露说会在近期推出不需要风扇散热的低功耗型号,想来就是了。
和之前的Brazos APU类似,Llano APU也在单独一颗硅片上集成了以下众多模块:x86处理器核心、二级缓存、DDR3内存控制器、图形SIMD阵列(也就是GPU)、显示控制器、UVD解码引擎、PCI-E控制器。从下边这两张图上你就可以看出各个模块的分布位置和相对大小。
Llano APU内集成了如此众多的功能模块,如何确保它们之间的高速互连、以便让整体随时保持在最佳状态、避免任何潜在的瓶颈,这无疑是APU设计过程中最关键的一点,也是获得1+1>2效果的基本前提。AMD在这方面显然是下足了功夫,比如特意设计了全新的Fusion Compute Link(Fusion计算连接)来将北桥模块、GPU、IO输入输出串联在一起,允许GPU访问一致性缓存/内存,同时在GPU和北桥之间还搭建了Radeon Memory Bus(显存的GPU通过高速带宽去访问系统内存。
说到底,APU并不是简简单单地把CPU、GPU整合到一块硅片上就完事了,不然也不会花费AMD三年多的时间,反复修改设计才最终修成正果。
CPU与Turbo Core
Llano APU中的处理器部分来源于Stars架构,也就是俗称的K10架构,与Phenom Ⅱ/Athlon Ⅱ系列同宗同源,在移动平台上更确切地说相当于此前的Phenom Ⅱ Mobile系列,自带128-bit浮点单元、一级缓存(每核心64KB+64KB)、二级缓存(每核心1MB),但没有三级缓存。
当然一切都不是完全照搬而来的。除了制造工艺从45nm进步到32nm,从而更有效地控制晶体管集成度、核心面积、频率和功耗,支持C6电源状态,还在细节上进行了大量优化,包括更大容量的二级缓存、改进的硬件预取、更大的窗口尺寸、硬件分割器、支持第二代Turbo Core智能超频技术等等,最终将IPC(每时钟周期指令数)提升了6%以上。
这里特别需要着重介绍的就是Turbo Core,官方中文名:“智能超频”。该技术最早出现于六核心的Phenom Ⅱ X6系列上,如今已经进化到第二代,支持从推土机到APU的全系列产品,不过截至2011年基本还没有软件工具能够实时监测Turbo Core的动态频率,只有AIDA64附带的CPUID还凑合。
我们知道,处理器在不同负载下的实际功耗差别很大,而且都距离最大热设计功耗还有一定的空间,另一方面多核心处理器在不同应用环境中活跃的核心数量也有所不同,这都造成了处理器资源无法得到充分利用,形成了浪费。
解决方案就是由功耗监视器实时测量每个处理器核心的功耗,由北桥汇总,然后统一报告给P-State电源状态管理器,再由其根据需要让处理器的各个核心运行在适当的电源状态下,或者降速或者提速,特别是提速的时候能短时间超过原始频率,并且保证始终不超过整体热设计功耗。
AMD Turbo Core的创新之处在于使用了数字式高级电源管理(APM)模块,相比于类似技术中的模拟温度和电流监测方法,能够提供高灵敏度的电源管理,精确度更高,具备完全可重复性。
更关键的是,Turbo Core会自动协调CPU、GPU,让需要更多资源的能够获得更高速度。在GPU闲置的时候,它就会大幅降低其频率,去尽可能高地提升CPU频率。
如果碰到了较为繁重的图形或者视频任务,GPU就会获得更高优先级,CPU退而求其次。
如果GPU执行的是DVD视频播放等轻负载任务,那么留给CPU的加速空间就要在整体热设计功耗中排除掉GPU的那一部分。
极端情况下,如果CPU、GPU都面临繁忙的任务,或者需要携手进行OpenCL APP加速计算,此时CPU、GPU就会同时得到加速,甚至会在短时间内超过热设计功耗限制,然后再根据情况去降低CPU的频率和功耗(GPU不变),保证核心温度不致于过高。这一点倒是和Sandy Bridge上的第二代Turbo Boost有些相似。
内存支持上,Llano APU移动版支持双通道DDR3 SO-DIMM,每通道一条内存条,也就是总共只能插两条内存,容量最大32GB。频率和电压方面标准版DDR3最高1600MHz,电压1.5V,低压版DDR3L最高1333MHz,电压1.35V,带宽最高25.6GB/s。
Llano APU的桌面版则支持双通道DDR3 DIMM,每通道两条内存条,总共可以插入四条内存,容量最大64GB,支持1.35V DDR3-1333、1.5V DDR3-1866,带宽最高29.8GB/s。
由于CPU、GPU“同处一室”,难免会争夺资源(事实上APU对内存带宽的依赖性确实非常强),为此AMD将GPU与内存控制器之间的带宽提高到了上代平台的四倍,且高于内存控制器与内存之间的带宽。
DX11 GPU
这部分是Llano APU的重点。它的开发代号为“Sumo”(相扑),源于第一代DX11家族中Radeon HD 5600/5500系列的Redwood核心,最多400个流处理器、20个纹理单元、2个渲染后端、8个ROP单元,显存位宽128-bit。遗憾的是,独立的GDDR5显存是没有了,而且也不像880G主板那样有板载硬显存,只能去共享系统DDR3内存。
除了继承原有的TeraScale 2统一处理架构,以及完全的DX11、OpenGL 4.1、各种抗锯齿和各向异性过滤(包括形态抗锯齿MLAA)、APP并行计算加速技术之外,Sumo核心还增加了来自Radeon HD 6000系列家族的UVD3视频解码引擎、功率门控(深度电源管理与节能),重新设计了通往北桥的显存接口,制造工艺也同步采用了最新的GlobalFoundries 32nm。
Sumo核心自然还是VLIW5 5D式流处理器架构,单精度浮点计算性能最高480GFlops,整数计算性能最高480Gints,都是每秒钟4800亿次。
作为Fusion APU的竞争对手,Intel Sandy Bridge所集成的HD Graphics 3000/2000虽然比前一代也有了巨大的进步,但是在图形技术、视频技术方面依然落后得很多,尤其是OpenCL并行计算仅有处理器支持,图形核心并不支持,无法协同加速。
Llano APU的处理器、图形核心部分都支持AMD APP加速并行处理技术,尤其是OpenCL标准规范,为此AMD将不断更新APP SDK开发包,提供更好性能和更多功能。按照规划,APP SDK 2.5版将于八月份推出,主要更新有Windows 7/Linux性能优化、多GPU支持(Windows 7)、快速傅立叶变换(根基数5)、UVD3/MPEG2解码、PowerExpress独显集显切换支持、GPU调试器(Windows 7)等等。
值得一提的是,Llano APU正式支持的OpenCL规范版本已更新至1.2。
芯片组与节能
随着芯片集成度的提高,无论桌面还是移动平台的构成都越来越简单,传统的处理器加南北桥双的三片架构已经消失,取而代之的是处理器加互连芯片的双芯片架构。原来由北桥负责的大部分功能都已经转移到处理器内部,包括图形核心,所谓的芯片组也就剩下了一颗充当南桥功能的小芯片。
Llano APU处理器搭配的Hudson系列芯片组同样是单芯片设计,在移动平台上有A70M、A60M两款型号,代号分别为Hudson-M3、Hudson-M2,通过UMI总线(PCI-E 1.0 x4+DP)与处理器互连。和之前用于Brazos APU平台的Hudson-M1 A50M是同门师兄弟。
A70M/A60M芯片组采用65nm工艺制造,605球脚FC BGA封装,芯片尺寸23×23=529平方毫米,典型热设计功耗2.7-4.7W。
两款芯片组均支持六个SATA 6Gbps存储接口并支持RAID 0/1阵列方式,可提供四条PCI-E 2.0 x1连接通道,集成时钟发生器、消费级红外接收器、风扇控制、电压感应、DAC(支持VGA)等等,主要区别则在于USB接口:A70M原生支持四个USB 3.0、十个USB 2.0和两个内部USB 1.1,A60M则没有USB 3.0,而是改成了十四个USB 2.0。
这套平台上还有个可选的替补角色,那就是Vancouver Radeon HD 6000M系列独立显卡,通过PCI-E x16通道与处理器相连。它不但能为笔记本带来独显性能,还支持与Llano APU集成的图形核心组成双显切换、加速系统。
最后再说一下电源管理与节能技术,这方面同样很丰富,包括32nm HKMG新工艺、AMD Turbo Core 2.0动态调速技术、系统管理模式(SMM)、ACIP兼容、多重性能状态(P-states)、多重节能状态(C-states)、S0/S3/S4/S5休眠状态、每个核心功率门控(CC6)、PCI-E核心功率门控、Radeon流处理器核心与UVD3视频引擎功率门控。
功率门控(Power Gating)尤为值得一提。它是AMD 45nm时代非常欠缺的技术,如今终于得到了彻底的支持。相比于时钟门控(Clock Gating),它不仅可以实时调节各个模块的运行频率、电压,还能在不需要的时候彻底关闭,实现部分零功耗。换句话说,Llano APU的每个处理器核心、每个PCI-E控制器、流处理器阵列、UVD3引擎都是可以完全关闭的,Turbo Core技术也是因此更上一层楼。
以上种种,都属于AMD AllDay全天计算技术。按照AMD给出的数据,ⅥSION 2010移动平台的待机时间最长为6个半小时,迎来了APU的ⅥSION 2011则可长达10个小时;同时相比竞争对手,待机续航时间长一个半多小时,满载续航时间也要长一个小时。
Richland平台
Richland APU上的动态调频技术为“Hybrid Boost”,芯片内部集成了更多的温度传感器,并调整了Turbo加速的算法使之更加智能化。以前需要加速的时候往往是CPU和GPU同时加速,但是这种情况并不多见,现在的算法则能保证那个部分需要更强性能就加速哪个。
Virgo平台
移动平台为“Comal”,新一代APU采用GlobalFoundries 32nm SOI HKMG工艺制造,拥有2-4个基于改进的推土机架构CPU核心,核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代Llano的CPU部分还是采用的较老的K10架构,融合的GPU部分也进行了大刀阔斧的改进,HD6000核心将被采用VLIW4(Cayman核心的HD6900就是采用的这种架构)架构的新图形核心取代。
Trinity APU于2012年5月15日正式发布,它的主要任务是接替Llano成为新一代面向主流和高性能移动领域的融合处理器。它和Llano APU一样最多拥有四个物理核心,不过核心架构从K10升级至Piledriver(打桩机,也就是第二代推土机),融合单显部分则最多拥有384个DX 11 Radeon流处理器(升级至HD 6900系列的VLIW 4架构),所搭配的单芯片依然支持SATA 6Gbps、USB 3.0、PCI-E 2.0等规范,至于双显混合交火功能也是继续支持的。
与上一代AMD APU相比,新一代的打桩机内核Trinity在性能上有着飞跃的提升,他的每一个运算模块是由两颗核心组成,每个模块搭配2MB的缓存,打桩机提供了IPC improvement、leakage reduction、CAC reduction和frequency uplift等增强功能,这些有别于Llano的设计让Trinity在性能上的发挥更为强大,性能提升将会非常明显。在以往公布的APU机构途中,内存控制器、核心单元吞吐量和信息处理能力一直是重要提升项目,因为融合的原因,这些单项功能的提升将会大大提升AMD Trinity的实际应用性能。
Lynx平台
CPU支持:MMX,SSE,SSE2,SSE3,SSE4a,Enhanced 3DNow!,NX bit,AMD64,Cool'n'Quiet,AMD-V,Turbo Core
CPU部分代号Husky,基于改进版K10.5架构
GPU部分基于Redwood核心
带K字的型号开放倍频
全型号通用参数:
晶体管数量:14.5亿
核心面积:228平方毫米
步进:B0
接口:Socket FM1
UMI总线:5GT/s
注:GPU核心配置格式为:流处理器数量,纹理单元数量,光栅单元数量
Comal平台
新一代APU采用GlobalFoundries 32nm SOI HKMG工艺制造,拥有2-4个基于改进的推土机架构CPU核心,核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代Llano的CPU部分还是采用的较老的K10架构,融合的GPU部分也进行了大刀阔斧的改进.
Brazos平台
基于Bobcat微架构
CPU支持:SSE,SSE2,SSE3,SSSE3,SSE4a,NX bit,AMD64,PowerNow!,AMD-V.
所有型号支持DX11和UVD3.0硬件解码
Socket FT1接口
步进:B0,C0
注:GPU核心配置格式为:流处理器数量,纹理单元数量,光栅单元数量
Sabine平台
CPU支持:MMX,SSE,SSE2,SSE3,SSE4a,Enhanced 3DNow!,NX bit,AMD64,Cool'n'Quiet,AMD-V,Turbo Core
CPU部分代号Husky,基于改进版K10.5架构
GPU部分基于Redwood核心
全型号通用参数:
晶体管数量:14.5亿
核心面积:228平方毫米
步进:B0
接口:Socket FS1
UMI总线:2.5GT/s
注:GPU核心配置格式为:流处理器数量,纹理单元数量,光栅单元数量